对社交媒体平台上的不诚实传播对社会有害。这种伤害可能表现为公众话语的逐步退化;但它也可以采取突然戏剧性事件的形式,如最近在国会山上的起义。该平台本身处于最佳位置,以防止伪造的传播,因为它们具有对相关数据的最佳访问和使用它的专业知识。然而,缓解消毒是昂贵的,不仅用于实施检测算法或采用手动努力,而且因为限制了这种高病毒内容会影响用户参与,从而影响潜在的广告收入。由于其他实体所承担有害内容的成本,因此该平台将不会激励行使社会最佳的努力水平。这个问题类似于环境监管,其中不良事件的成本不是由公司直接承担的,公司的缓解努力不是可观察到的,并且有害后果与特定失败之间的因果关系很难证明。对于环境监管,一种解决方案是执行昂贵的监控,以确保该公司根据规定的规则采取足够的预防措施。但是,随着时间的推移,用于分类虚拟信息的固定规则变得较低,因为坏行动者可以学会顺序和战略性地绕过它。将我们的域名编码为马尔可夫决策过程,我们证明没有基于静态规则的惩罚,无论多大,都可以激励充分的努力。仅基于自适应规则的处罚可以激励最佳努力,而是违反直接的努力,只有通过要求更高的努力水平充分地反应有害事件。我们规定了引发平台的机制设计,这些机制是与控制不控制的预防努力成本。
translated by 谷歌翻译
事后观察合理性是一种玩一般游戏的方法,该游戏规定了针对一组偏差的单个代理的无重格学习动态,并进一步描述了具有介导的平衡的多个代理商之间的共同理性行为。为了在依次的决策设置中发展事后理性学习,我们将行为偏差形式化为一般偏差,尊重广泛形式游戏的结构。将时间选择的概念整合到反事实遗憾的最小化(CFR)中,我们介绍了广泛的遗憾最小化(EFR)算法,该算法对于任何给定的行为偏差都具有与集合的复杂性紧密相关的计算相关的行为偏差。我们识别行为偏差子集,部分序列偏差类型,这些类型还包含先前研究的类型并导致长度中等的游戏中有效的EFR实例。此外,我们对基准游戏中不同偏差类型实例化的EFR进行了彻底的经验分析,我们发现更强大的类型通常会引起更好的性能。
translated by 谷歌翻译
在最近在两人,零和游戏中取得成功的驱动下,人工智能在游戏中的工作越来越重视产生基于平衡策略的算法。但是,这种方法在培养通用游戏或两个以上玩家的能力的玩家中的效果较小,而不是在两人游戏中的零和零游戏中。一个有吸引力的替代方法是考虑自适应算法,以确保相对于修改行为可以实现的方面的强劲表现。这种方法还导致了游戏理论分析,但是在关节学习动力学而不是均衡的代理行为引起的相关性游戏中。我们在一般的顺序决策环境中发展并倡导这一对学习的事后理性理性框架。为此,我们在广泛的游戏中重新检查了介导的平衡和偏差类型,从而获得了更完整的理解和解决过去的误解。我们提出了一组示例,说明了文献中每种平衡的独特优势和劣势,并证明没有可牵引的概念可以包含所有其他概念。这一探究线在与反事实遗憾最小化(CFR)家族中算法相对应的偏差和平衡类的定义中达到顶点,将它们与文献中的所有其他人联系起来。更详细地研究CFR进一步导致相关游戏中合理性的新递归定义,该定义以自然适用于后代评估的方式扩展了顺序合理性。
translated by 谷歌翻译
As language models (LMs) scale, they develop many novel behaviors, good and bad, exacerbating the need to evaluate how they behave. Prior work creates evaluations with crowdwork (which is time-consuming and expensive) or existing data sources (which are not always available). Here, we automatically generate evaluations with LMs. We explore approaches with varying amounts of human effort, from instructing LMs to write yes/no questions to making complex Winogender schemas with multiple stages of LM-based generation and filtering. Crowdworkers rate the examples as highly relevant and agree with 90-100% of labels, sometimes more so than corresponding human-written datasets. We generate 154 datasets and discover new cases of inverse scaling where LMs get worse with size. Larger LMs repeat back a dialog user's preferred answer ("sycophancy") and express greater desire to pursue concerning goals like resource acquisition and goal preservation. We also find some of the first examples of inverse scaling in RL from Human Feedback (RLHF), where more RLHF makes LMs worse. For example, RLHF makes LMs express stronger political views (on gun rights and immigration) and a greater desire to avoid shut down. Overall, LM-written evaluations are high-quality and let us quickly discover many novel LM behaviors.
translated by 谷歌翻译
肾细胞癌(RCC)是一种常见的癌症,随着临床行为的变化。懒惰的RCC通常是低级的,没有坏死,可以在没有治疗的情况下监测。激进的RCC通常是高级的,如果未及时检测和治疗,可能会导致转移和死亡。虽然大多数肾脏癌在CT扫描中都检测到,但分级是基于侵入性活检或手术的组织学。确定对CT图像的侵略性在临床上很重要,因为它促进了风险分层和治疗计划。这项研究旨在使用机器学习方法来识别与病理学特征相关的放射学特征,以促进评估CT图像而不是组织学上的癌症侵略性。本文提出了一种新型的自动化方法,即按区域(Corrfabr)相关的特征聚集,用于通过利用放射学和相应的不对齐病理学图像之间的相关性来对透明细胞RCC进行分类。 CORRFABR由三个主要步骤组成:(1)特征聚集,其中从放射学和病理图像中提取区域级特征,(2)融合,放射学特征与病理特征相关的放射学特征在区域级别上学习,并且(3)在其中预测的地方学到的相关特征用于仅使用CT作为输入来区分侵略性和顽固的透明细胞RCC。因此,在训练过程中,Corrfabr从放射学和病理学图像中学习,但是在没有病理图像的情况下,Corrfabr将使用CORFABR将侵略性与顽固的透明细胞RCC区分开。 Corrfabr仅比放射学特征改善了分类性能,二进制分类F1分数从0.68(0.04)增加到0.73(0.03)。这证明了将病理疾病特征纳入CT图像上透明细胞RCC侵袭性的分类的潜力。
translated by 谷歌翻译
尽管遥感(RS)社区已经开始预认识到变压器(打算在RS任务上进行微调),但尚不清楚这些模型如何在分配变化下执行。在这里,我们为新的RS Transformer-satvit-v2预算了130万个卫星衍生的RS图像,然后对其进行微调(以及其他五个型号),以调查其在训练过程中未见的分布情况。我们根据源Biome将一个专业标记的土地覆盖数据集分为14个数据集。我们分别在每个生物群上训练每个模型,并在所有其他生物群体上测试它们。总之,这相当于1638年的生物群体转移实验。经过微调后,我们发现SATVIT-V2在分布情况下(匹配生物群)的表现优于SATVIT-V1,而分布(不匹配的生物群落)数据的表现为2.8%。此外,我们发现从线性探测溶液(即利用LPFT [1])初始化微调可将SATVIT-V2的性能提高1.2%,而分布数据的分布数据为2.4%。接下来,我们发现,在分布变化下,预估计的RS变压器比未经预告的模型更好地校准,并且利用LPFT会导致模型校准的进一步改进。最后,我们发现五个分配转移的度量与生物群体转移性能中等相关。我们共享代码和预估计的模型权重。 (https://github.com/antofuller/satvit)
translated by 谷歌翻译
2型糖尿病(T2DM)的早期诊断对于及时的治疗干预措施和生活方式改变至关重要。随着医学成像数据在许多患者群体中变得更广泛可用,我们试图研究是否可以在表格学习分类器模型中利用图像衍生的表型数据来预测T2DM的发病率,而无需使用侵入性血液实验室测量。我们表明,使用图像衍生表型的神经网络和决策树模型都可以预测患者T2DM状态的召回评分高达87.6%。我们还提出了与“ Syntha1c编码器”相同的结构的新颖使用,这些结构能够输出模仿血液血红蛋白A1C经验实验室测量值的可解释值。最后,我们证明了T2DM风险预测模型对输入矢量成分中小扰动的敏感性可用于预测从以前看不见的患者人群中取样的协变量的性能。
translated by 谷歌翻译
现在已经充分理解的是,经过适当注意的数据训练的机器学习模型通常对某些人群表现出不公平和歧视性的行为。传统的算法公平研究主要集中于监督的学习任务,尤其是分类。尽管无监督的学习中的公平性引起了人们的关注,但文献主要解决了连续嵌入的公平表示学习。在本文中,我们相反,使用具有离散潜在变量的概率图形模型专注于无监督的学习。我们为离散的潜在变量开发了一种公平的随机变异推理技术,该技术是通过对旨在尊重交叉性的原理,法律,社会科学和人文科学文学的公平性的关键视角的变异分布的公平惩罚来完成的,该变量是通过对变异分布的公平惩罚来完成的。 ,然后在此惩罚下优化变异参数。我们首先显示了我们方法在基准数据集上使用Na \“ Ive bayes和Gaussian混合模型进行聚类的公平性和公平性的实用性。 - 刑事司法风险评估的使用图形模型,并使用我们的公平方法来防止推论编码不公平的社会偏见。
translated by 谷歌翻译
许多私人保险公司和公共保险公司对听力损失可以直接归因于工作场所中噪音过度暴露的工人进行了补偿。索赔评估过程通常是漫长的,需要从人类审判者那里进行大量努力,这些裁决者必须解释经常通过传真或等效发送的手录制的听力图。在这项工作中,我们提出了与安大略省工作场所安全保险委员会合作开发的解决方案,以简化裁决过程。特别是,我们提出了第一个能够自动从扫描或传真听力学报告中提取听力阈值的听力图数字化算法作为概念验证。该算法将大多数阈值提取到5 dB的精度之内,从而可以大大减少以半监督的方式将听力图转换为数字格式所需的时间,并且是朝着裁决过程自动化的第一步。 GITHUB(https://github.com/greencubic/audiogramDigitization)公开获得了数字化算法的源代码和我们NIHL注释门户的基于桌面的实现。
translated by 谷歌翻译
在线自主代理能够利用各种潜在的任务知识来源;但是,目前的方法总是只关注一两个。在这里,我们调查了利用多样化知识源以一记模拟的家用移动机器人的新任务学习的挑战和影响。在SOAR认知体系结构中开发的最终代理使用以下域和任务知识来源:与环境的互动,任务执行和规划知识,人类自然语言指导以及从大语言模型(GPT-3)检索到的响应。我们探讨了这些知识来源的不同贡献,并在学习正确的任务知识,人力工作量和计算成本方面评估了不同组合的性能。结合所有来源的结果表明,整合可以在计算成本和人力工作量方面改善一声任务学习。
translated by 谷歌翻译